Delitos en Ciudad de Buenos Aires

Un análiis de los delitos en la Ciudad de Buenos Aires, entre 2016 y 2019

Sebastian Caviglia, Maximiliano de la Torre, Erich Kunath y Cristian Salinas Talamilla
2021-05-07

OBJETIVO DEL PROYECTO

El fin de nuestro proyecto, fue conocer la relación de los delitos en la ciudad, en base a, los horarios en los que ocurren, el tipo crimen y en qué puntos geográficos de la ciudad tienen lugar.

Utilizamos los datos abiertos de la Ciudad de Buenos Aires, más exactamente, el registro de delitos comprendidos entre los años 2016 a 2019.

Dataset utilizado

Vista General

Generamos una vista general del Dataset, para saber cuáles son las variables que lo componen. En este caso, tenemos un total de 14 variables. Entre ellas, tenemos 12 variables categóricas numéricas y de texto y dos cuantitativas (Hora_delito y cantidad_registrada).

Estructura del dataset

Luego, verificamos como es la estrcutura de cada variable, para poder asi saber si luego tenemos que modificar alguna para poder aplicar nuestro modelo.

Rows: 488,541
Columns: 10
$ id                  <dbl> 51585, 83256, 117697, 43088, 68588, 8140~
$ fecha               <date> 2016-01-01, 2016-01-01, 2016-01-01, 201~
$ franja_horaria      <chr> "13", "22", "1", "19", "4", "4", "9", "4~
$ tipo_delito         <chr> "Robo (con violencia)", "Robo (con viole~
$ subtipo_delito      <chr> NA, NA, "Siniestro Vial", NA, "Robo Auto~
$ cantidad_registrada <dbl> 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1~
$ comuna              <dbl> 9, 14, 4, 9, 6, 14, 1, 4, 9, 3, 1, 10, 8~
$ barrio              <chr> "Parque Avellaneda", "Palermo", "Parque ~
$ lat                 <dbl> -34.64873, -34.57693, -34.64520, -34.655~
$ long                <dbl> -58.46854, -58.40740, -58.40110, -58.478~

Resumen general de las variables numéricas

RESUMEN ESTADISTICO DE LA BASE DE DATOS

A continuacion, usamos la funcion “Summary”, para conocer los valores estadísiticos del Dataset. Así, podemos visualizar: promedios, mínimos y máximos, cuartiles y también conocer si existen valores inexistentes (NAs). En nuestra base de datos, podemos ver que, por un lado el mayor numero de delitos ocurre durante la semana laborable (entiendase Lunes a Viernes), mientras que los fines de semana se puede notar una baja en la cantidad de delitos. Tambien podemos concluir que en base al rango intercuartil de “hora_delito” el 75% de los robos ocurre entre las 10hs a las 19hs

       id             fecha            franja_horaria    
 Min.   :     1   Min.   :2016-01-01   Length:488541     
 1st Qu.:122136   1st Qu.:2016-12-17   Class :character  
 Median :244271   Median :2017-12-21   Mode  :character  
 Mean   :244271   Mean   :2017-12-22                     
 3rd Qu.:366406   3rd Qu.:2018-12-18                     
 Max.   :488541   Max.   :2019-12-31                     
                                                         
 tipo_delito        subtipo_delito     cantidad_registrada
 Length:488541      Length:488541      Min.   :1          
 Class :character   Class :character   1st Qu.:1          
 Mode  :character   Mode  :character   Median :1          
                                       Mean   :1          
                                       3rd Qu.:1          
                                       Max.   :4          
                                                          
     comuna          barrio               lat        
 Min.   : 1.000   Length:488541      Min.   :-34.70  
 1st Qu.: 3.000   Class :character   1st Qu.:-34.63  
 Median : 7.000   Mode  :character   Median :-34.61  
 Mean   : 7.311                      Mean   :-34.61  
 3rd Qu.:12.000                      3rd Qu.:-34.59  
 Max.   :15.000                      Max.   :-34.53  
 NA's   :8364                        NA's   :8364    
      long       
 Min.   :-58.53  
 1st Qu.:-58.47  
 Median :-58.43  
 Mean   :-58.44  
 3rd Qu.:-58.40  
 Max.   :-58.34  
 NA's   :8364    

Pre-procesamiento del Dataset

Franjas horarias y fecha

Se realizarón las siguientes acciones: 1. Se generó una nueva variable categórica con las franjas horarias separándolas en: Madrugada, Mañana, Tarde y Noche. 2. A partír de la variable date, se generaron nuevas variables para obtener características de fecha por separado: año, mes y dia. 3. Por último, se redefinieron las categorías de la variable “Tipo de delito”, para que sea más claro y abreviado

Exploración de los datos

Descripción de la variable tipo de delito

Tipo de delito Descripción
Homicidio Doloso Muerte violenta según art. 79 C.P
Homicidio Siniestro Vial Siniestro víal cuya victima resulta en fallecimiento (en el acto o hasta 30 días después del hecho)
Hurto Apoderarse ilegítimamente de un bien ajeno, sin el uso de fuerza en las cosas o violencia en las personas
Hurto Automotor Apoderarse de un vehículo (rodado) completo, con motor y 4 o más ruedas; sin el uso de fuerza en las cosas o violencia en las personas
Lesiones SiniestroVial Siniestro vial, cuya víctima resulta en lesiones (y no resulte fallecida en el acto o hasta 30 días después del hecho)
Robo Apoderarse ilegítimamente de un bien ajeno, a través de la fuerza en las cosas o violencia en las personas
Robo_Automotor Apoderarse de un vehículo (rodado) completo, con motor y 4 o más ruedas; a través de la fuerza en las cosas o violencia en las personas

En el siguiente grágico se pueden observar la cantidad de ocurrencias por tipo de delito.
En este primer gráfico, se puede percibir, que la mayor cantidad de ocurrencias corresponden a robos y hurtos. Las categorías restantes, correspondientes a:

Tipo de delitos en términos porcentuales

En terminos porcentuales se puede apreciar que 86.27% del total de crímenes, corresponden a robos y hurtos. El resto de categorías representan el 14%.

Distribucion de delitos
Tipo de delito Ocurrencias Porcentaje(%)
Robo 258433 54
Hurto 155776 32
Lesiones_SiniestroVial 31479 7
HurtoAutomotor 22445 5
Robo_Automotor 11057 2
Homicidio_SiniestroVial 485 0
Homicidio_Doloso 459 0

Comparación por años

El dataset analizado comprende los delitos entre los años 2016 y 2019. La siguiente gráfica busca comparar el comportamiento por tipo de delito y por año.

Se observa que las ocurrencias por tipo de caso, se mantiene en proporción. Los robos y hurtos, siguen teniendo un papel protagónico en todo momento.

Comparación por día de la semana

Se puede observar que durante la semana laboral (lunes a viernes), la variación es mínima. Durante fin de semana (sábado y domingo), las ocurrencias disminuyen, sobre todo, significativamente durante el día domingo. Se podría deducir vagamente, que el aumento de circulación debido a la jornada laboral tiene una relación positiva con numero de ocurrencias.

Distribución de ocurrencias por horas

Se observan que los casos disminuyen por la madrugada y aumentan significativamente durante fin de la tarde y principio de la noche

Mapa de calor

El siguiente gráfico muestra otro desglose por hora

Comparación de tendencia por horas y día de la semana

En la comparación por días de la semana no se observa grandes diferencias, las tendencias se mantienen durante los días correspondientes a los días de jornada laboral.

Análisis por comuna

Para realizar una explorarción desde la perspectiva geografica de la ciudad de Buenos Aires, se realizó el siguiente análisis por comunas.

Antes de continuar con este análisis greográficos, creemos pertinente las siguientes aclaraciones:
Se denomina comunas a las unidades político administrativas en las que se divide la Ciudad Autónoma de Buenos Aires en Argentina. Esta división de segundo orden es, en algunos sentidos, el equivalente a los partidos-municipios de la vecina provincia de Buenos Aires y a los departamentos del resto de las provincias de Argentina. (fuente Wikipedia - Comunas de la ciudad de Buenos Aires)

Los barrios que representan a cada comuna son los siguientes:

COMUNA 1. Retiro, San Nicolás, Puerto Madero, San Telmo, Montserrat y Constitución
COMUNA 2. Recoleta
COMUNA 3. Balvanera y San Cristóbal
COMUNA 4. La Boca, Barracas, Parque Patricios y Nueva Pompeya
COMUNA 5. Almagro y Boedo
COMUNA 6. Caballito
COMUNA 7. Flores y Parque Chacabuco
COMUNA 8. Villa Soldati, Villa Riachuelo y Villa Lugano
COMUNA 9. Liniers, Mataderos y Parque Avellaneda
COMUNA 10. Villa Real, Monte Castro, Versalles, Floresta, Vélez Sarfield y Villa Luro
COMUNA 11. Villa General Mitre, Villa Devoto, Villa del Parque y Villa Santa Rita
COMUNA 12. Coghlan, Saavedra, Villa Urquiza y Villa Pueyrredón
COMUNA 13. Núñez, Belgrano y Colegiales
COMUNA 14. Palermo
COMUNA 15. Chacarita, Villa Crespo, La Paternal, Villa Ortúzar, Agronomía y Parque Chas

Comunas de la Ciudad de Buenos Aires

Delitos por comuna

Este gráfico muestra la ocurrencia de delitos por comuna.
La comuna con mayor cantidad de eventos, que represnetamos en el grafico a continuacion, fue la comuna 1 y luego la siguieron las comunas 3, 4, 14 y 7. Lo importante a destacar de la comuna 1, es que es la comuna en la cual están por un lado los principales atractivos turisticos de la ciudad y también tienen lugar, las empresas mas importantes que centran sus actividades ahi, entre ellas hay: Bancos, Aseguradoras, Empresas de telecomunicaciones, etc…

Distribucion de delitos por comuna
Comuna Ocurrencias Porcentaje(%)
comuna 1 69197 14
comuna 3 42121 9
comuna 4 39448 8
comuna 14 38337 8
comuna 7 35148 7
comuna 13 29260 6
comuna 15 28376 6
comuna 9 28322 6
comuna 5 27747 6
comuna 8 24812 5
comuna 12 24463 5
comuna 11 24018 5
comuna 10 23812 5
comuna 2 22565 5
comuna 6 22508 5

Se puede observar que la comuna 1, tiene significativamente más casos que el resto de las unidades de gestión. Junto con la comuna 3, 4 y 14, representan el 39% de las observaciones.

En cuanto a los promedios y rangos intercuartiles del numero de casos por comuna, se puede observar, al igual que en las anteriores representaciones, la comuna 1 es la que mayor cantidad de ocurrencias tiene.

Comparación de delitos totales por comuna y por año

Al igual que las comparaciones generales, las distribución a lo largo de los años observados se mantienen y no se observa variaciones significativas o destacables.

Comunas con tendencia de bajas de ocurrencias significativas

Por otro lado, mas alla de el maximo numero de ocurrencias en cada comuna por año. También, hubo comunas que lograron, de forma existosa, disminuir el número de delitos en sus respectivos barrios, dicho argumento podemos avalarlo con los siguiente graficos, las comunas de las cuals hablamos son: 7, 9, 8, 11, 10 y 6.

En este gráfico, se muestra el ranking de las 3 comunas con mas casos en cada franja horarias. Nuevamente, se puede observar que en los horarios de la Mañana y la Tarde, se concentran la maor cantidad de ocurrencias.

Clusterización de los datos

##Clusters realizados por comuna

A fin de agrupar las comunas según la ocurrencia de delitos, se procedió a la confección del cluster.

REPRESENTACION DE DELITOS EN CLUSTERS

Una vez confeccionado el cluster de cada comuna, se generó la representación gráfica del mismo.
A través del cluster, podemos reafirmar que la comuna con más casos es 1.

REPRESENTACION DE DELITOS EN CLUSTERS CON GRAFICO BOXPLOT

Se realizó una representacion de los clustes en un grafico del tipo “boxplot” para podes visulizar las ocurrencias de los delitos por año en cada comuna, como se muestra a continuación.

Análisis de Cluster por barrio

Una vez que ya conocimos en un aspecto mas macro, las comunas y las cantidades de delitos que contre cada una de ellas. El siguiente paso fue conocer mas en profundidad, en cada comuna, cuales son los barrios con mayor numero de transgresiones en el total de años, lo cual fue mostrando en el grafico a continuación.

Barrios y Comunas de la Ciudad de Buenos Aires

Lo que logramos concluir del gráfico anterior, es que los barrios con mayor numero de casos: Palermo, Balvanera, Flores, San Nicolas, Recoleta y Caballito. Ahora, para conocer que tran representativo del total de barrios, son los numeros presenetados previamente, calculamos el porcentaje de eventos en cada barrio.

Porcentaje de delitos por barrio
Barrio Ocurrencias Porcentaje
Barrio Palermo 38337 8 %
Barrio Balvanera 33747 7 %
Barrio Flores 24896 5 %
Barrio San Nicolás 23409 5 %
Barrio Recoleta 22565 5 %
Barrio Caballito 22508 5 %
Barrio Almagro 19868 4 %
Barrio Belgrano 16026 3 %
Barrio Villa Lugano 15140 3 %
Barrio Barracas 14128 3 %
Barrio Constitución 13395 3 %
Barrio Retiro 12883 3 %
Barrio Villa Crespo 12606 3 %
Barrio Monserrat 12234 3 %
Barrio Mataderos 11529 2 %
Barrio Nueva Pompeya 10502 2 %
Barrio Villa Urquiza 10321 2 %
Barrio Parque Chacabuco 10252 2 %
Barrio Liniers 9072 2 %
Barrio Villa Devoto 8444 2 %
Barrio San Cristóbal 8374 2 %
Barrio Parque Patricios 8153 2 %
Barrio Boedo 7879 2 %
Barrio Parque Avellaneda 7721 2 %
Barrio Saavedra 7622 2 %
Barrio Nuñez 7451 2 %
Barrio Villa Soldati 7156 1 %
Barrio Boca 6665 1 %
Barrio San Telmo 6621 1 %
Barrio Floresta 6369 1 %
Barrio Chacarita 6340 1 %
Barrio Villa del Parque 5824 1 %
Barrio Colegiales 5783 1 %
Barrio Villa Gral. Mitre 4995 1 %
Barrio Vélez Sársfield 4810 1 %
Barrio Villa Santa Rita 4755 1 %
Barrio Villa Luro 4526 1 %
Barrio Villa Pueyrredón 4471 1 %
Barrio Monte Castro 4146 1 %
Barrio Paternal 2872 1 %
Barrio Villa Ortuzar 2690 1 %
Barrio Villa Riachuelo 2516 1 %
Barrio Coghlan 2049 0 %
Barrio Versalles 2023 0 %
Barrio Parque Chas 1971 0 %
Barrio Villa Real 1938 0 %
Barrio Agronomía 1897 0 %
Barrio Puerto Madero 655 0 %

El siguiente diagrama de cajas nos permite observar la distribucion de ocurrencias de delitos para todos los barrios.

De la misma manera que se analizaron las comunas de manera interanual, se procedio con el analisis para los barrios de estudio. Se puede observar que muchos barrios han tenido decrecimientos en la ocurrencia de delitos conforme avanzaron los años desde 2016 a 2019.

En la siguiente grafica se puede observar la ocurrencia de delitos por año y por barrio. Los barrios de Palermo, Balvanera y Flores están dentro de los tres barrios con mayor cantidad de ocurrencias.

A los fines de conocer el comportamiento en cada años de la canitdad de delitos, realizamos un grafico con las ocurrencias semanales de todos los eventos delictivos. Pudimos observar, que el promedio semanal de crimenes para todos los años es cercano a los 2200 delitos semanales. Magnitud que no ha cambiado con el correr del tiempo.

Promedio de delitos por año
Año Promedio semanal
2016 2376.491
2017 2239.698
2018 2234.321
2019 2208.623

Sin embargo, existen barrios en los cuales el número de ocurrencias a disminuido con el correr de los años entre 2016 y 2019. Tal es el caso de los barrios que se presentan en el gráfico siguiente.

Como se pude observar del analisis, existe un gran contraste en los delitos segun barrios en los que ocurren. En el siguiente gráfico, Palermo se presenta como una la las ubicaciones con mayor incidencia para cometer delitos. Mientras que los barrios como Villa Real, entre otros, contrasta con un menor numero de delitos.

Finalmente, se realizó un conteo de casos según horario de ocurrencia para todos los barrios analizados. En el siguiente grafico se muestras los 3 barrios con mayor cantidad de casos según el horario de análisis.

De la misma manera, se indexamos el tipo de delito al numero de ocurrecias para todos los barrios analizados. En el siguiente gráfico se muestran los 3 barrios con mayor cantidad de casos según el el tipo de delito. Lo importante a destacar del siguiente grafico, es que podemos dar a conocer el tipo de delito que ocurre un mayor número de veces en los distintos barrios y como algunos se repiten en mas de un gráfico, como es el caso de Flores y Palermo.

CLUSTER POR BARRIO

En complemento al análisis de los barrios y el tipo de hechos delictivos que ocurren, complementamos también un cluster, mostrando como se segmentan los crimenes en los barrios.

GRAFICOS BOX PLOT DEL TOTAL DE CRIMENES POR BARRIO

Para poder hacer una visuazliación de forma mas generalizada del total de delitos en todos los barrios, en el siguiente gráfico, se puede observar, cuales son los lugares con mayor promedio de transgresiones. Los barrios como Balvanera y Palermo, son los que mas destacan, no solo por el promedio de ocurrencias, sino tambien por sus maximos y minímos que tienen mayor preponderancia, los de los barrios restantes.

MAPA DE CALOR DE LA CIUDAD DE BUENOS AIRES

Por otra parte, para poder dar a conocer en base a los puntos geográficos, las zonas con mayores ocurrencias, utilizamos el siguiente mapa para poder destacar los puntos con mayor concentracion de crimenes, dicho mapa en base al análisis previamente realizado, deberia coincidir con la investigación ya generada.

Reading layer `CABA_rc' from data source `https://bitsandbricks.github.io/data/CABA_rc.geojson' using driver `GeoJSON'
Simple feature collection with 3554 features and 8 fields
Geometry type: MULTIPOLYGON
Dimension:     XY
Bounding box:  xmin: -58.53092 ymin: -34.70574 xmax: -58.33455 ymax: -34.528
Geodetic CRS:  WGS 84

En el siguiente gráfico, aplicamos el mapa de calor, sobre la Ciudad de buenos aires. En dicho gráfico, se puede ver que las zonas con mayor ocurrencia de hechos delictivos, con congruentes, con el analisis relizado, ya que se relfeja la mayor ocurrencia de los mismos, en zonas centricas de la ciudad, como la comuna 1 y tabmbien en barrios, como Palermo y Balvanera.

También, desde otro punto de vista, generamos un mapa de calor, pero discriminando en base al tipo de crimen y su ocurrencia en distintas partes de la ciudad. Lo que se puede concluir del mismo es que tanto los robos como los hurtos siguen teniendo un papel destacado en esta investigación y los mismos tienen mayor repeticion en las comunas y barrios antes mencionados.

Reading layer `subte_estaciones' from data source `http://bitsandbricks.github.io/data/subte_estaciones.geojson' using driver `GeoJSON'
Simple feature collection with 86 features and 3 fields
Geometry type: POINT
Dimension:     XY
Bounding box:  xmin: -58.48639 ymin: -34.64331 xmax: -58.36993 ymax: -34.55564
Geodetic CRS:  WGS 84

Para porfundizar mas en la raíz del motivo por el cual los crímenes se daban mas en zonas centricas de la ciudad, formulamos una teoría de que podia llegar a haber una relación entre las bocas de subtes y los delitos. A continuación superpusimos un gráfico de calor, con otro mostrando los puntos de bocas de subte en la Ciudad de Buenos Aires. En dicho análisis pudimos encontrar que en las bocas de subte, y mucho mas en las intersecciones con otras lineas de subte, el numero de ocurrencias era mayor y cobraba mas relevancia a medida que se acercaba a la parte mas centrica de la ciudad.

CONCLUSIÓN

Se pudo resolver del analisis previamente hecho, que la Ciuad de Buenos Aires como ocurre en general en las ciudades, al tener una gran concentración de habitantes, esto genera una mayor probabilidad de que ocurran hechos delictivos. Dichos crimenes de igual manera, no se dan todos de forma uniforme, sino que hay crimenes que tienen una ponderacion mucho mas elvada que otros, como son los robos y hurtos. También, no solo el tipo de crimen no es homogéneo, sino que los puntos geograficos, tampoco lo son, ya que como comentabamos previamente, zonas centricas, mas al este de la ciudad o barrios como Palermo un mayor numero de ocurrencias a diferencia de zonas mas al oeste de la ciudad o barrios como Villa Real que sus numeros de ocurrencia son mucho menor.